单眼3D人姿势估计技术有可能大大增加人类运动数据的可用性。单位图2D-3D提升使用图卷积网络(GCN)的表现最佳模型,通常需要一些手动输入来定义不同的身体关节之间的关系。我们提出了一种基于变压器的新型方法,该方法使用更广泛的自我发场机制来学习代表关节的代币序列。我们发现,使用中间监督以及堆叠编码器福利性能之间的剩余连接。我们还建议,将错误预测作为多任务学习框架的一部分,可以通过允许网络弥补其置信度来改善性能。我们进行广泛的消融研究,以表明我们的每项贡献都会提高性能。此外,我们表明我们的方法的表现超过了最新的单帧3D人类姿势估计的最新技术状态。我们的代码和训练有素的模型可在GitHub上公开提供。
translated by 谷歌翻译
计算机视觉/基于深度学习的3D人体姿势估计方法旨在从图像和视频中定位人类关节。姿势表示通常限制为3D联合位置/平移自由度(3DOF),但是,许多潜在的生物力学应用需要另外三个旋转DOF(6DOF)。位置DOF不足以分析求解3D人类骨骼模型中的关节旋转DOF。因此,我们提出了一种时间反向运动学(IK)优化技术,以推断整个生物力学知情和特定于主体的运动链中的关节取向。为此,我们从基于位置的3D姿势估计的链接方向开出链接方向。顺序最小二乘二次编程用于解决最小化问题,涉及基于框架的姿势术语和时间术语。使用关节DOF和运动范围(ROM)约束溶液空间。我们生成3D姿势运动序列,以评估IK方法的一般准确性和在边界情况下的准确性。我们的时间算法以平均每个关节角分离(MPJAS)误差(3.7 {\ deg}/关节总体,&1.6 {\ deg}/关节,下肢的平均值平均值(MPJAS)误差平均值较低。但是,在弯曲的肘部和膝盖的情况下,我们会获得低误差,但是,具有延伸/直肢阶段的运动序列会导致扭曲角度模棱两可。使用颞IK,我们减少了这些姿势的歧义,从而导致平均错误较低。
translated by 谷歌翻译
Multimodal integration of text, layout and visual information has achieved SOTA results in visually rich document understanding (VrDU) tasks, including relation extraction (RE). However, despite its importance, evaluation of the relative predictive capacity of these modalities is less prevalent. Here, we demonstrate the value of shared representations for RE tasks by conducting experiments in which each data type is iteratively excluded during training. In addition, text and layout data are evaluated in isolation. While a bimodal text and layout approach performs best (F1=0.684), we show that text is the most important single predictor of entity relations. Additionally, layout geometry is highly predictive and may even be a feasible unimodal approach. Despite being less effective, we highlight circumstances where visual information can bolster performance. In total, our results demonstrate the efficacy of training joint representations for RE.
translated by 谷歌翻译
使用相对比心脏磁共振成像(PC-CMR)进行的流量分析可以量化用于评估心血管功能的重要参数。该分析的重要部分是鉴定正确的CMR视图和质量控制(QC),以检测可能影响流量定量的伪像。我们提出了一个新型的基于深度学习的框架,用于对完整CMR扫描的流量进行完全自动化的分析,该框架首先使用两个顺序卷积神经网络进行这些视图选择和QC步骤,然后进行自动主动脉和肺动脉分段,以实现对量化的量化。钥匙流参数。对于观察分类和QC,获得了0.958和0.914的精度值。对于细分,骰子分数为$> $ 0.969,而平淡的altman情节表示手动和自动峰流量值之间的一致性很高。此外,我们在外部验证数据集上测试了管道,结果表明管道的鲁棒性。这项工作是使用由986例病例组成的多生临床数据进行的,表明在临床环境中使用该管道的潜力。
translated by 谷歌翻译
以任务为导向的对话系统(TODS)继续升高,因为各种行业发现有效地利用其能力,节省时间和金钱。然而,即使是最先进的TOD尚未达到其全部潜力。TOD通常具有主要设计专注于完成手头的任务,因此任务分辨率的度量应优先考虑。可能会忽略可能指向对话的其他可能指向成功或其他方面的会话质量属性。这可能导致人类和对话系统之间的相互作用,让用户不满意或沮丧。本文探讨了对话系统的评价框架的文献,以及对话系统中的会话质量属性的作用,看起来,如何以及在与对话系统的性能相关的情况下,如何相关。
translated by 谷歌翻译
众所周知,在ADAS应用中,需要良好的估计车辆的姿势。本文提出了一种鉴定的2.5D内径术,由此由横摆率传感器和四轮速度传感器衍生的平面内径测量由悬架的线性模型增强。虽然平面内径术的核心是在文献中已经理解的横摆率模型,但我们通过拟合二次传入信号,实现内插,推断和车辆位置的更精细的整合来增强这一点。我们通过DGPS / IMU参考的实验结果表明,该模型提供了与现有方法相比的高精度的内径估计。利用返回车辆参考点高度变化的传感器改变悬架配置,我们定义了车辆悬架的平面模型,从而增加了内径模型。我们提出了一个实验框架和评估标准,通过该标准评估了内径术的良好和与现有方法进行了比较。该测距模型旨在支持众所周知的低速环绕式摄像头系统。因此,我们介绍了一些应用程序结果,该应用结果显示使用所提出的内径术来查看和计算机视觉应用程序的性能提升
translated by 谷歌翻译
反事实推断是一种强大的工具,能够解决备受瞩目的领域中具有挑战性的问题。要进行反事实推断,需要了解潜在的因果机制。但是,仅凭观察和干预措施就不能独特地确定因果机制。这就提出了一个问题,即如何选择因果机制,以便在给定领域中值得信赖。在具有二进制变量的因果模型中已经解决了这个问题,但是分类变量的情况仍未得到解答。我们通过为具有分类变量的因果模型引入反事实排序的概念来应对这一挑战。为了学习满足这些约束的因果机制,并对它们进行反事实推断,我们引入了深层双胞胎网络。这些是深层神经网络,在受过训练的情况下,可以进行双网络反事实推断 - 一种替代绑架,动作和预测方法的替代方法。我们从经验上测试了来自医学,流行病学和金融的多种现实世界和半合成数据的方法,并报告了反事实概率的准确估算,同时证明了反事实订购时不执行反事实的问题。
translated by 谷歌翻译
电动汽车越来越普遍,具有电感折射板被认为是充电电动车辆的方便和有效的手段。然而,驾驶员通常较差,使车辆对准到必要的电感充电的必要精度时,使得两个充电板的自动对准是所需的。与车辆队列的电气化平行,利用环保相机系统的自动停车系统越来越受欢迎。在这项工作中,我们提出了一种基于环绕式摄像机架构的系统来检测,本地化,并自动将车辆与电感充电板对齐。费用板的视觉设计不标准化,并不一定事先已知。因此,依赖离线培训的系统将在某些情况下失败。因此,我们提出了一种在线学习方法,在手动将车辆用ChartionPad手动对准时,利用驾驶员的行动,并将其与语义分割和深度的弱监督相结合,以学习分类器以自动注释视频中的电荷工作以进行进一步培训。通过这种方式,当面对先前的未持代币支付板时,驾驶员只需手动对准车辆即可。由于电荷板在地上平坦,从远处检测到它并不容易。因此,我们建议使用Visual Slam管道来学习相对于ChiftPad的地标,以实现从更大范围的对齐。我们展示了自动化车辆上的工作系统,如视频HTTPS://youtu.BE/_CLCMKW4UYO所示。为了鼓励进一步研究,我们将分享在这项工作中使用的费用数据集。
translated by 谷歌翻译
摄像机是自动化驱动系统中的主要传感器。它们提供高信息密度,并对检测为人类视野提供的道路基础设施线索最优。环绕式摄像机系统通常包括具有190 {\ DEG} +视野的四个鱼眼相机,覆盖在车辆周围的整个360 {\ DEG}集中在近场传感上。它们是低速,高精度和近距离传感应用的主要传感器,如自动停车,交通堵塞援助和低速应急制动。在这项工作中,我们提供了对这种视觉系统的详细调查,在可以分解为四个模块化组件的架构中,设置调查即可识别,重建,重建和重组。我们共同称之为4R架构。我们讨论每个组件如何完成特定方面,并提供一个位置论证,即它们可以协同组织以形成用于低速自动化的完整感知系统。我们通过呈现来自以前的作品的结果,并通过向此类系统提出架构提案来支持此参数。定性结果在视频中呈现在HTTPS://youtu.be/ae8bcof7777uy中。
translated by 谷歌翻译
Object detection is a comprehensively studied problem in autonomous driving. However, it has been relatively less explored in the case of fisheye cameras. The standard bounding box fails in fisheye cameras due to the strong radial distortion, particularly in the image's periphery. We explore better representations like oriented bounding box, ellipse, and generic polygon for object detection in fisheye images in this work. We use the IoU metric to compare these representations using accurate instance segmentation ground truth. We design a novel curved bounding box model that has optimal properties for fisheye distortion models. We also design a curvature adaptive perimeter sampling method for obtaining polygon vertices, improving relative mAP score by 4.9% compared to uniform sampling. Overall, the proposed polygon model improves mIoU relative accuracy by 40.3%. It is the first detailed study on object detection on fisheye cameras for autonomous driving scenarios to the best of our knowledge. The dataset comprising of 10,000 images along with all the object representations ground truth will be made public to encourage further research. We summarize our work in a short video with qualitative results at https://youtu.be/iLkOzvJpL-A.
translated by 谷歌翻译